智能论文笔记

预期周围车辆的车道变化意图对于自动驾驶系统中的有效且安全的驾驶决策至关重要。以前的作品通常采用物理变量，例如驾驶速度，加速度等进行车道变更分类。但是，物理变量不包含语义信息。尽管3D CNN正在迅速开发，但使用动作识别模型和泳道更改识别的外观特征的方法数量很低，并且它们都需要其他信息来预处理数据。在这项工作中，我们提出了一个端到端框架，包括使用相机收集的视频数据，包括两种用于车道变更识别的动作识别方法。我们的方法仅使用预防数据集的RGB视频数据来实现最佳的车道变更分类结果。类激活图表明，动作识别模型可以有效提取车道变更运动。本文还提出了一种更好地提取运动线索的方法。

translated by 谷歌翻译

Cross-modal Prototype Driven Network for Radiology Report Generation

Jun Wang , Abhir Bhalerao , Yulan He

分类：计算机视觉 | 自然语言处理

2022-07-11

放射学报告产生（RRG）旨在用类似人类的语言描述自动放射学图像，并有可能支持放射科医生的工作，从而减轻手动报告的负担。先前的方法通常采用编码器架构，并专注于单模式特征学习，而很少的研究探索了跨模式特征交互。在这里，我们提出了一个跨模式原型驱动网络（XPRONET），以促进跨模式模式学习并利用它以改善放射学报告生成的任务。这是通过三个精心设计，完全可区分和互补的模块来实现的：共享的跨模式原型矩阵来记录跨模式原型；一个跨模式原型网络，可学习跨模式原型，并将交叉模式信息嵌入视觉和文本特征中；以及改进的多标签对比度损失，以实现和增强多标签原型学习。 Xpronet在IU-XRAR和MIMIC-CXR基准方面取得了重大改进，其性能超过了最新的最新方法，从IU-XRAY上的差距很大，并且在Mimic-CXR上的性能可比性。

translated by 谷歌翻译